草庐IT

Java Quartz 作业持久化

全部标签

hadoop - 为什么在一个 Hadoop 作业中只使用 1 个 map 和 1 个 reduce 任务以及 1 个节点?

我已经配置了一个3节点集群来运行wordcountmapreduce程序。我正在使用一本书,其大小为659kb(http://www.gutenberg.org/ebooks/20417)作为测试数据。有趣的是,在该作业的WebUI中,仅涉及1个map、1个reduce和1个节点。我想知道这是否是因为数据量太小。如果是,我可以手动设置将数据拆分到多个节点上的不同map吗?谢谢,艾伦 最佳答案 默认block大小为64MB。所以是的,该框架确实只为每种类型分配一项任务,因为您的输入数据较小。1)您可以提供超过64MB的输入数据,然后看

hadoop - 如何访问 WSO2 BAM 的 hadoop 作业跟踪器?

我是BAM的新手,我的一个配置单元查询已损坏。但是我找不到问题所在,因为它给我的唯一错误是ERROR:ErrorwhileexecutingHivescript.Queryreturnednon-zerocode:9,cause:FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.MapRedTask我环顾四周,发现BAM只能显示这么多信息,要了解更多信息,我需要查看hadoop的作业跟踪器。但是我找不到任何关于如何打开它或在BAM服务器中访问它的信息。那么我该如何访问它/打开它呢?

java - 通过 java Processbuilder 提交 mapreduce 作业不会结束

我有一个jar文件形式的mareduce作业,比如“mapred.jar”。实际上,Jobtracker正在远程linux机器上运行。我从本地机器运行jar文件,jar文件中的作业被提交到远程jobtracker,它工作正常,如下所示:java-jarF:/hadoop/mapred.jar13/12/1912:40:27WARNmapred.JobClient:UseGenericOptionsParserforparsingthearguments.ApplicationsshouldimplementToolforthesame.13/12/1912:40:27INFOinput

java - 在 Hadoop 2.2.0 中运行作业的 IBM_JAVA 错误

Exceptioninthread"main"java.lang.NoSuchFieldError:IBM_JAVAatorg.apache.hadoop.security.UserGroupInformation.getOSLoginModuleName(UserGroupInformation.java:303)atorg.apache.hadoop.security.UserGroupInformation.(UserGroupInformation.java:348)atorg.apache.hadoop.mapreduce.task.JobContextImpl.(JobCo

java - 运行 Hadoop Map Reduce 作业,错误 : Unsupported major. 次要版本 51.0

我正在使用hadoop2.2.0在AmazonWebServicesRedHat6.4上运行map-reduce作业。我正在使用的Jar文件是在我的本地Windows7计算机上构建的。mapreduce作业在我的Windows7机器上本地安装的Hadoop上运行良好,但是当我尝试在Amazon实例上运行它时,我收到以下错误:Exceptioninthread"main"java.lang.UnsupportedClassVersionError:mapReduce/TestXMLConfig:Unsupportedmajor.minorversion51.0atjava.lang.Cl

hadoop - 为什么使用 c3.8xlarge 服务器的 AWS EMR 作业与使用 cc2.8xlarge 服务器的相同作业相比会严重滞后?

我怀疑这可能是AWS端的内部问题,但我想在这里发帖,因为我目前没有高级AWS支持(更新:已签名申请AWS支持,希望我能从他们那里得到答案)。我有一份经常性的EMR工作,最近我从使用cc2.8xlarge服务器切换到c3.8xlarge服务器。在我第一次使用新配置运行时,我的一个通常需要2-3分钟的map-reduce作业被卡住了,花费了超过9个小时将数据从映射器复制到唯一的reducer。我在9.5小时后终止了作业,重新尝试在新的EMR集群上启Action业,我在第一个小时内看到了相同的行为,因此再次终止了它。当我将工作切换回使用cc2.8xlarge服务器时,工作在2-3分钟内完成。

java - 如何增加 hadoop 中 map 任务的数量以及如何获取 hadoop mapreduce 作业所花费的总时间

我有一个数据集,我正在尝试在hadoop中进行分析。据我所知,它在少量数据中运行平稳。第一个查询:我想在大数据上对此进行测试,并找出当文件大小增加时完成任务需要多少时间。如何获得完成任务需要多少秒?是否有任何cmd行语法或类似的语法?第二个查询:dfs.replication设置为1inhdfs-core.xml文件。它只是复制输入数据,还是对mapreduce作业有一些影响?第三个查询:现在,我有一个单节点hadoop集群。如何知道它为给定输入文件生成的映射器的确切数量以及如何更改编号。映射器?实际上,我想获得完成不同编号下的任务所需的时间。的映射器。例如:首先我想用10个mappe

java - 在 eclipse 中调试 map reduce 作业

我想使用eclipse调试Map-reduce作业(pig、hive)。也就是说,在hadoop源java文件中设置断点并在运行map-reduce作业时检查元素。为此,我使用eclipse启动了所有服务,并且可以调试一些类文件。但是我不能创建一个完整的调试环境。谁能告诉我怎么做? 最佳答案 我不知道有什么eclipse工具可以满足您的需求。如果您正在寻找可能的解决方案,以下将适用于java。importjava.util.logging.Logger;为了调试javamapreduce文件,您可以为每个类(驱动程序、映射器、red

hadoop - JobTracker UI 不显示 hadoop 作业的进度

我正在单节点集群下测试我的MR作业。一旦我安装了mahout9版本,Mapreduce作业就停止在jobtracker中显示进度。(不知道安装mahout后是否发生了这种情况)当我在我的hadoop集群中运行一个作业时,它不会像以前那样在作业跟踪器UI中显示状态,并且在控制台中显示的执行日志也不同(类似于mahout日志)为什么会这样?提前致谢。 最佳答案 您的作业很可能正在使用LocalJobRunner运行.如果您的作业正在使用LocalJobRunner,您会注意到mapreduce作业输出中的mapred.LocalJobR

hadoop - 设置 Pig 作业的最小 reducer 数量

我想为我的PigJob设置要启动的最小reducer数量。我尝试使用:SETdefault_parallel57;但是,这会强制所有作业都必须有57个reducer。是否有任何我可以设置的设置强制PigJob具有至少57个或更多的reducer。 最佳答案 我认为这是不可能的。您可以将default_parallel设置为57,对于那些您希望拥有更多reducer的操作,您可以使用PARALLEL指定更高的数量。我知道这并不是您想要的。 关于hadoop-设置Pig作业的最小reduce